智能论文笔记

近年来，基于变压器的模型已导致自然语言处理的语言建模取得重大进步。但是，他们需要大量的数据接受（预先）训练，并且除英语以外的语言中缺乏语料库。最近，一些计划提出了从自动网络爬行获得的多语言数据集。但是，西班牙语的结果具有重要的缺点，因为与其他语言相比，它们要么太小，要么呈现出较低的质量，从而获得了次优的清洁和重复数据删除。在本文中，我们介绍了Escorpius，这是一种西班牙爬行语料库，该语料库是从附近的1 pb普通爬网数据中获得的。它是西班牙语中最广泛的语料库，其提取，纯化和重复数据删除的质量水平。我们的数据策划过程涉及一条新型的高度平行清洁管道，并包含一系列重复数据删除机制，以确保文档和段落边界的完整性。此外，我们同时维护源网页URL和WARC Shard Origin URL，以抱怨欧盟法规。 Escorpius已根据CC BY-NC-ND 4.0许可发布，可在HuggingFace上获得。

translated by 谷歌翻译

A spectral least-squares-type method for heavy-tailed corrupted regression with unknown covariance \& heterogeneous noise

Roberto I. Oliveira , Zoraida F. Rico , Philip Thompson

分类： (统计)机器学习

2022-09-06

我们重新访问重尾损坏的最小二乘线性回归，假设最多损坏了$ n $ n $ n $ sized的标签 - 功能样本，最多是$ \ epsilon n $ nutialary Outliers。我们希望估计给定标签 - 功能对$（y，x）$满足$ y = \ y = \ langle x，b^*\ rangle+xi $的标签 - 功能对$（y，x）$的样本给定$ p $ -dimensional参数$ b^*$ - 尾$（x，\ xi）$。我们只假设$ x $ is $ l^4-l^2 $超债券与常数$ l> 0 $，并具有协方差矩阵$ \ sigma $，最低eigenvalue $ 1/\ mu^2> 0 $和有限条件号$ \ \ \ \ \ \ \ \ kappa> 0 $。只要$ \ xi x $具有有限的协方差矩阵$ \ xi $，噪声$ \ xi $可以任意取决于$ x $，而非对称性。我们提出了一个基于功率方法的近乎最佳的计算估计器，假设对$（\ sigma，\ xi）$也不了解$ \ xi $的运算符规范。如果概率至少$ 1- \ delta $，我们提出的估计器达到了统计率$ \ mu^2 \ vert \ xi \ xi \ vert^{1/2}（\ frac {p} {n} {n}+\ frac {\ log（\ log（\ log（ 1/\ delta）}} {n}+\ epsilon）^{1/2} $ and beckdown-point $ \ epsilon \ epsilon \ sillesim \ frac {1} {l^4 \ kappa^2} $ \ ell_2 $ - norm，假设最小最小样本大小$ l^4 \ kappa^2（p \ log p + p + \ log（1/\ delta））\ sillsim n $，最多为log fix因数。据我们所知，这是同时满足所有提到的所有属性的第一个计算障碍算法。我们的估计器基于两阶段的乘量重量更新算法。第一阶段估计了（未知）预先条件的内部产品$ \ langle \ sigma（\ cdot），\ cdot \ rangle $。第二阶段估计下降方向$ \ sigma \ hat v $相对于（已知的）内部产品$ \ langle \ cdot，\ cdot \ rangle $，而无需了解或估计$ \ sigma $。

translated by 谷歌翻译